附加偏见预测器辅助的均衡化场景图生成 | 王文彬, 王瑞平, 陈熙霖
王文彬, 王瑞平, 陈熙霖. 附加偏见预测器辅助的均衡化场景图生成. 中国科学: 信息科学, DOI: 10.1360/SSI-2022-0105
真实场景中不仅包含物体, 也蕴含着物体之间丰富的关系, 而场景图就是一种以场景中物体为节点, 以物体间的关系为边的图表示. 场景图在计算机视觉领域中有着广泛的应用, 例如跨模态检索、图像文本描述生成、视觉问答和视觉推理等. 因此, 关于场景图生成的研究日益受到关注.
现有的场景图生成方法有很多不足, 比如现有方法(如Motif)对于图1中前两张图片都偏向于预测成“on”, 而非“riding”、“standing on”等关系, 这种结果不够准确, 很可能会产生歧义, 引发误解, 不利于场景图本身在其他应用中发挥作用.
究其原因, 就是现有的基于图像的场景图数据集中的关系标注普遍存在不均衡现象, 频繁出现的关系特异性差, 而数量稀少的关系更加准确.
为了使模型在不均衡的数据条件下能够更均衡地学习, 预测出更加多样化的关系, 研究者们提出了多种类型的方法, 主要包括重加权方法、重采样方法. 然而这些方法往往需要手动设计加权形式, 并调整较多的超参数; 或是使模型陷入对尾部关系的过拟合.
本文提出了一种附加偏见预测器(Additional Biased Predictor, ABP)辅助的均衡化学习方法.
具体而言, 本文工作的目标是减轻场景图生成器在头部关系上的关注度, 进而更加注重学习尾部关系. 这种需求可以通过引入一条偏向于预测头部关系的有偏预测分支来实现.
对于头部关系, 有偏分支已经能够较好地将它们预测出来, 因此头部关系的损失对场景图生成器的影响降低, 场景图生成器无需再特别关注这些关系; 而对于尾部的关系, 有偏分支预测结果很差, 和没有该分支辅助的情况下相比, 场景图生成器需要更加注重对这些关系的学习, 尾部关系上的损失的影响增大.
本方法引入的有偏分支, 在训练过程中与场景图生成器形成“互补”, 促使场景图生成器弥补在尾部关系上的不足, 进而更加均衡地学习.
本文的主要贡献包括:
(1) 提出了通过添加偏见预测去辅助生成场景图的方法, 在原始场景图生成器的基础上, 实现了更好的类别均衡. 跨数据集情景下的实验表明, 本文提出的方法在准开放环境下仍然有效, 显示出其潜在的实用价值.
(2) 通过对比实验, 考察了不同偏见项的影响, 验证了引入偏见项的有效性. 将本文方法与多种场景图生成器相结合, 仅增加少量的开销, 提升了原有场景图生成器的性能, 验证了其广泛的适用性, 且与重采样等均衡学习方法具有互补性和兼容性.
本文实验使用的场景图数据集上包括:
(1) VG150, 来源于Visual Genome, 涵盖150类物体和50种关系, 训练集和测试集图片比例为7:3, 按照惯例做法, 从训练集中分出5000张图片作为验证集.
(2) VRD, 涵盖100类物体和70种关系, 共有4000张训练图片和1000张测试图片.
(3) OpenImages, 训练集、验证集和测试集分别有126368张、1813张和5322张图像, 涵盖601类物体和30种关系.
本文的ABP方法适用于不同的场景图生成器. 现有的主流场景图生成器包括Motif和VCTree, 以及将Transformer应用到场景图生成领域的一类生成器. 在这几种场景图生成器上验证ABP方法的有效性.
在VG150上的实验结果如表3和4所示, 从中可以发现: ABP 方法在mR@K 指标上显著超越了已有方法. ABP和Reweight、Birsmp等传统的重加权、重采样方法相比, 更具优越性. 另外, ABP可以很好地和均衡采样方法配合使用, 从而获得更好的性能.
在VRD和OpenImages上的实验结果如表5和表6所示, 这也体现了ABP方法具有广泛适用性.
图9中展示了Motif和Motif+ABP方法产生的场景图实例对比.
其中有一些由Motif预测的关系是合理的, 比如第一个图中的“giraffe near leaf”, 第三个图中的“girl on skateboard”和“hair on girl”, 第四个图中的“number / logo / engine on plane”, 但这些预测并没有对应上原本的标注.
而Motif+ABP将它们预测为“giraffe eating leaf”, “girl riding skateboard”, “hair belonging to girl”, “number / logo painted on plane”, “engine attached to plane”, 显然这些关系词更符合标注, 描述的准确程度更高.
另外, 一些关系被Motif预测错误, 比如第二个图中的“man has wheel”, 而Motif+ABP成功地将其预测为“man using wheel”.
为了进一步验证ABP方法的均衡化效应, 需要验证其在跨数据集情景下的适用性, 但同时考虑到面向开放词表的场景图生成研究仍处于起步阶段, 本节以另一种方式进行验证.
具体而言, 将VG150和VRD的训练集与测试集对应合并, 对关系合并去重后得到91种不同关系. 合并后的数据集称为VGVRD数据集. 由于VRD 中包含较多的更细粒度的关系词, 因此VGVRD 受到更严重的长尾分布的影响, 如图10中折线所示.
实验结果如图10和表8中第1、2行结果所示. 虽然在部分非常接近尾部的关系词上使用ABP方法作用不大, 但和Motif相比, ABP方法明显提升中后部的关系词的性能.